智能论文笔记

FedNST: Federated Noisy Student Training for Automatic Speech Recognition

Haaris Mehmood , Agnieszka Dobrowolska , Karthikeyan Saravanan , Mete Ozay

分类：人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-06-06

联合学习（FL）启用了分布式系统中用户设备（客户端）上的最新自动语音识别（ASR）模型，从而阻止将原始用户数据传输到中央服务器。 ASR实用采用实践采用面临的主要挑战是在客户身上获得地面真相标签。现有的方法依靠客户手动抄录演讲，这对于获得大型培训语料库是不切实际的。一个有希望的替代方法是使用半/自制的学习方法来利用未标记的用户数据。为此，我们提出了Fednst，这是一种使用私人和未标记的用户数据训练分布式ASR模型的新颖方法。我们探索Fednst的各个方面，例如具有不同比例的标记和未标记数据的培训模型，并评估1173个模拟客户端的建议方法。在LibrisPeech上评估Fednst，其中960个小时的语音数据被平均分为服务器（标签）和客户端（未标记）数据，显示了仅对服务器数据训练的监督基线，相对单词错误率降低}（WERR）22.5％。

translated by 谷歌翻译

Selected aspects of complex, hypercomplex and fuzzy neural networks

Agnieszka Niemczynowicz , Radosław A. Kycia , Maciej Jaworski , Artur Siemaszko , Jose M. Calabuig , Lluis M. García-Raffi , Baruch Schneider , Diana Berseghyan , Irina Perfiljeva , Vilem Novak

分类：机器学习

2022-12-29

This short report reviews the current state of the research and methodology on theoretical and practical aspects of Artificial Neural Networks (ANN). It was prepared to gather state-of-the-art knowledge needed to construct complex, hypercomplex and fuzzy neural networks. The report reflects the individual interests of the authors and, by now means, cannot be treated as a comprehensive review of the ANN discipline. Considering the fast development of this field, it is currently impossible to do a detailed review of a considerable number of pages. The report is an outcome of the Project 'The Strategic Research Partnership for the mathematical aspects of complex, hypercomplex and fuzzy neural networks' meeting at the University of Warmia and Mazury in Olsztyn, Poland, organized in September 2022.

translated by 谷歌翻译

Improving Group Lasso for high-dimensional categorical data

Szymon Nowakowski , Piotr Pokarowski , Wojciech Rejchel , Agnieszka Sołtys

分类： (统计)机器学习

2022-10-25

Sparse modelling or model selection with categorical data is challenging even for a moderate number of variables, because one parameter is roughly needed to encode one category or level. The Group Lasso is a well known efficient algorithm for selection continuous or categorical variables, but all estimates related to a selected factor usually differ. Therefore, a fitted model may not be sparse, which makes the model interpretation difficult. To obtain a sparse solution of the Group Lasso we propose the following two-step procedure: first, we reduce data dimensionality using the Group Lasso; then to choose the final model we use an information criterion on a small family of models prepared by clustering levels of individual factors. We investigate selection correctness of the algorithm in a sparse high-dimensional scenario. We also test our method on synthetic as well as real datasets and show that it performs better than the state of the art algorithms with respect to the prediction accuracy or model dimension.

translated by 谷歌翻译

Keyword Extraction from Short Texts with~a~Text-To-Text Transfer Transformer

Piotr Pęzik , Agnieszka Mikołajczyk-Bareła , Adam Wawrzyński , Bartłomiej Nitoń , Maciej Ogrodniczuk

分类：自然语言处理

2022-09-28

该论文探讨了波兰语（PLT5）的文本到文本传输转换器语言模型（T5）与从短文本段落中固有和外在关键字提取的任务。该评估是在新的波兰开放科学元数据语料库（POSMAC）上进行的，该科学与本文一起发布：库里卡特项目中编写的216,214篇科学出版物摘要的集合。我们比较了通过四种不同方法获得的结果，即PLT5KW，Extremetext，temopl，Keybert，并得出结论，PLT5KW模型可为频繁代表的关键字带来特别有希望的结果。此外，在POSMAC上训练的PLT5KW关键字生成模型似乎还可以在跨域文本标签方案中产生非常有用的结果。我们讨论了该模型在新闻故事和基于电话的对话框成绩单上的性能，这些成绩单代表文本流派和科学摘要数据集外部域。最后，我们还试图表征在固有和外部关键字提取上评估文本对文本模型的挑战。

translated by 谷歌翻译

The (de)biasing effect of GAN-based augmentation methods on skin lesion images

Agnieszka Mikołajczyk , Sylwia Majchrowska , Sandra Carrasco Limeros

分类：计算机视觉

2022-06-30

现在，新的医疗数据集对公众开放，可以进行更好，更广泛的研究。尽管以最大的谨慎准备，但新数据集可能仍然是影响学习过程的虚假相关性的来源。此外，数据收集通常不够大，而且通常是不平衡的。减轻数据不平衡的一种方法是使用生成对抗网络（GAN）使用数据扩展来扩展具有高质量图像的数据集。 GAN通常在与目标数据相同的偏置数据集上进行训练，从而导致更多的偏差实例。这项工作探索了无条件和条件剂量，以比较其偏差遗传以及合成数据如何影响模型。我们提供了大量的手动数据注释，可能在著名的ISIC数据集上具有皮肤病变的偏见。此外，我们研究了对实际和合成数据训练的分类模型，并具有反事实偏置解释。我们的实验表明，GAN遗传了偏见，有时甚至会放大它们，从而导致更强的虚假相关性。手动数据注释和合成图像可公开可重复可再现科学研究。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Towards the global vision of engagement of Generation Z at the workplace: Mathematical modeling

Radosław A. Kycia , Agnieszka Niemczynowicz , Joanna Nieżurawska-Zając

分类： (统计)机器学习

2021-12-31

在工作场所的第z参与调查中执行相关和聚类分析（K-Meansian混合模型）。聚类表明了描述员工参与的各种因素之间的关系。最明显的因素是关于工作职责和具有挑战性的工作的明确陈述。这些因素在实践中至关重要。本文的结果可用于准备旨在旨在发电Z员工的更好的动机系统。

translated by 谷歌翻译

Prolog-based agnostic explanation module for structured pattern classification

Gonzalo Nápoles , Fabian Hoitsma , Andreas Knoben , Agnieszka Jastrzebska , Maikel Leon Espinosa

分类：机器学习

2021-12-23

本文介绍了一种基于Prolog的推理模块，以产生鉴于由黑盒分类器计算的预测的反事实解释。建议的符号推理模块还可以解决使用地面真实标签而不是预测的if查询。总的来说，我们的方法包括四个明确定义的阶段，可以应用于任何结构化模式分类问题。首先，我们通过抵消缺失值并归一化数值特征来预先处理给定的数据集。其次，我们使用模糊群集将数值特征转换为象征性的，使得提取的模糊簇映射到有序的预定义符号集。第三，我们使用标称值，预定义符号，决策类和置信度值将实例编码为Prolog规则。第四，我们使用模糊粗糙集理论来计算每个Prolog规则的整体置信度，以处理通过将数值转变为符号而引起的不确定性。此步骤对新的相似性功能进行了额外的理论贡献，以比较涉及置信度值的先前定义的Prolog规则。最后，我们在人类之间实现了聊天栏和基于Prolog的推理模块，以解决自然语言查询并生成反事实解释。在使用合成数据集的数值模拟期间，我们在使用不同的模糊运算符和相似性功能时研究我们的系统的性能。在结束时，我们说明了我们的推理模块如何使用不同的用例工作。

translated by 谷歌翻译

Measuring Wind Turbine Health Using Drifting Concepts

Agnieszka Jastrzebska , Alejandro Morales-Hernández , Gonzalo Nápoles , Yamisleydi Salgueiro , Koen Vanhoof

分类：机器学习

2021-12-09

时间序列加工是风力涡轮机健康监测的重要方面。尽管在这一领域进展，但新方法仍有空间来提高建模质量。在本文中，我们提出了两种新方法来分析风力涡轮机健康。这两种方法都基于抽象概念，使用模糊集实现，概述并汇总了底层的原始数据。通过观察概念的变化，我们推断涡轮机健康的变化。分析分别进行不同的外部条件（风速和温度）。我们提取代表相对低，中等和高功率生产的概念。第一种方法旨在评估相对较高和低功率生产的降低或增加。使用回归式模型执行此任务。第二种方法评估提取的概念的整体漂移。大漂移表明电力生产过程及时经历波动。使用语言标签标记概念，从而用改善的解释性功能配备了我们的模型。我们应用了提出的方法来处理描述四种风力涡轮机的公开数据。仿真结果表明，所有风力涡轮机的老化过程在所有风力涡轮机中都不均匀。

translated by 谷歌翻译

Language models in word sense disambiguation for Polish

Agnieszka Mykowiecka , Agnieszka A. Mykowiecka , Piotr Rychlik

分类：自然语言处理 | 人工智能

2021-11-27

在论文中，我们测试了两个不同的方法，以获得波兰语的{令人难过的}词感人歧义任务。在这两种方法中，我们使用神经语言模型来预测与消歧的词语类似，并且在这些词的基础上，我们以不同的方式预测单词感官的分区。在第一种方法中，我们群集选定类似的单词，而在第二个中，我们群集代表其子集的群集向量。评估是在用PLONDNET感应注释的文本上进行的，并提供了相对良好的结果（对于所有模糊单词F1 = 0.68）。结果明显优于\ Cite {WAW：MYK：17：Sense}的神经模型的无人监督方法所获得的结果，并且处于在那里提供的监督方法的水平。所提出的方法可以是解决缺乏有义注释数据的语言的词语感义歧消声问题的方式。

translated by 谷歌翻译